Заказчикам: новый поиск в магазине статей - сортировка по релевантности
Сделали правильную сортировку по релевантности в магазине статей. Ранее сортировка была не совсем нормальной. Сортировка по релевантности теперь установлена по умолчанию.
Хоть я в сервисе недавно, но понимаю, что это нововведение ни к чему хорошему не приведет. Ввел в поиск "раскрутка сайтов". На первом месте статья автора, у которого 200% доработка !!! Я так полагаю, что приоритет у статей, в которых ключевики встречаются чаще. Но, чем больше ключевых фраз, тем хуже читаемость текста, больше воды. При этом также теряется смысл.
Я знаю, что такое релевантность и по ссылке прочитал информацию. Можно подумать, что у компьютера мозги появились и он начал понимать смысл статей, а не тупо оценивает статью по наличию ключевых фраз.
Релевантность - это не оценка статьи по наличию ключевых фраз.
"...Соответствие документа информационному запросу, определяемое неформальным путем. Одним из методов для оценки релевантности является TF-IDF-метод. Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (то есть чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного документа по отношению к термину — то есть документ будет выдаваться раньше в результатах поиска по данному термину..."
Сортировка по релевантности позволяет выбрать из всех наших статей наиболее подходящие. Если поиск с сортировкой по релевантности не дает нужных результатов, значит просто нет необходимых статей. Если это не так - покажите примеры. Если статьи плохие или некачественные - пишите в ЛПА.
Материал из Википедии :) Чтобы раскрыть эту тему, надо будет написать большую статью (понятно не в комментах). Конечно релевантность учитывает много факторов, но главный принцип - это соответствие ключевой и похожих фраз (хотя все остальные факторы в сумме могут нести больший вес). Если вы с этим не согласны, то не вижу смысла продолжать дискуссию.
Вы каждый раз забываете самое главное - коллекцию документов. Без коллекции документов релевантности не существует. И расчитывается релевантность исходя из коллекции документов.
Вы пытаетесь доказать, что релевантные документы - это плохо читаемые документы с большим количеством ключевых фраз, с большим количеством "воды" и с малым смыслом. Это не верно, вы заблуждаетесь. Изучайте матчасть.
При такой сортировке статья "Как выбрать «правильное» агентство недвижимости? Копирайтинг / 4329 символов / 4.763 у.е. (1.10 у.е. за 1000) Категория: Недвижимость / Язык: Russian — Русский / Автор: Smakota / все статьи Извещения" встречается в конце каждой странице и другие статьи при такой сортировке так же повторяются.
Сергей, мне сам принцип построения поиска очень нравится. Но нельзя ли более конкретизировать разделы в магазине? Например, статью про мебель, куда её разместить в Дом и быт или в Торговлю, а может в Моду и стиль? Это же можно сказать о дизайне. Или, например раздел Дом и быт, там все вперемешку и рецепты и стирка-уборка и много чего. Можно было бы каждый раздел разделить на подразделы.
В простейшем случае, релевантность текста определенному запросу — это процент вхождения запроса к общему объему текста. Для поисковых систем высокорелевантным текстом считается такой, где вхождение запроса в текст примерно равно 4-7% — меньшего может не хватить, большее чревато тем, что система сочтет текст за поисковый спам и наложит на страницу некий понижающий фильтр или может вообще убрать страницу из результатов выдачи по искомому запросу.
Конечно, каждая поисковая система использует гораздо более сложные способы вычисления релевантности документов запросу пользователя. Тем не менее, несмотря на то, что алгоритмы у всех поисковых машин разные, они построены на общих принципах — основные отличия результатов выдачи заключаются не в алгоритмах определения релевантности, а в конкретных способах реализации этих алгоритмов.
Значит, такой текст не всем может подходить, и, по моему мнению, такая сортировка не должна стоять по умолчанию.
Т.е. Вы считаете, что раньше сортировка была лучше? Мне кажется, что нововведение превосходное!
------------------------
Еще один момент. Если администрация занялась магазином, то хотелось бы все-таки увидеть в профиле каждого автора количество проданных статей. Хотя бы "более... 10, 100, 500, 1000 и т.д." (как с оплаченными работами).
Продано статей, к примеру, 100. Покупателей всего 20. Среднее количество статей на покупателя - 5. Если есть постоянные покупатели, вряд ли автор занимается продажей бредотекстов или статей "обо всем и ни о чем".
И все-таки хотелось бы получить возможность ставить оценку. Не каждый же человек, купив статью и оставшись не совсем довольным ее качеством, спешит "пожаловаться" на автора в ЛПА. Я, например, просто беру и исправляю ошибки: пунктуацию и синтаксис. Очень часто воды много льют, а бывает и сплошь одна вода. После того как уберешь из текста всякие "кроме того", " итак", "таким образом", "вдобавок ко всему" и тому подобные обороты, которые по сути там на фиг не нужны, глядишь - а знаков-то существенно уменьшилось.
Отдых, туризм, хобби. Как много в этих словах! Я не заказчик, а всего лишь автор, написавший более 50 статей в магазин, из которых 35 уже проданы. У меня много статей про рыбалку, подводную охоту и аквариум. Также и строительство, с интернетом. На заказ в основном, авто- и мототемы. Судя по тому, как разбирают, статьи удовлетворительны, а может и отличные. Жалоб, во всяком случае, нет. Но как это отразить для заказчика? Как он может увидеть эти цифры, и как может узнать, по каким темам автор более всего продаваем? Почему бы не сделать график, как у заказчиков, где бы заказчик мог четко видеть на каких темах я зарабатываю. И еще. Выше написали, что может нужно несколько сузить значение каждого раздела. Например, рыбалка отдельно, а аквариум отдельно. Только приветствую. А то отдых, туризм и хобби - понятия довольно растяжимые и могут мало чем вязаться друг с другом. Например, для меня отдых и хобби - копаться в машинах, или рыться в интернет-новинках. Возможно мое мнение не интересно, но мне кажется, что пора в магазине навести более конкретный порядок. Спасибо.
И еще. Если администрация все же возьмется за статистику магазина, то писать, считаю, нужно хотя бы десятками, а не сразу сотнями и тысячами. Счет крупными цифрами создает несколько ложное впечатление у заказчика. А это не выгодно самой бирже, поскольку она заинтересована в том, что бы создать условия, позволяющие увеличить покупку статей. А вообще можно просто предоставить для заказчиков отдельную страницу, где будут показаны ВСЕ проданные в магазине статьи - пусть немного требующий терпения вариант, но он самый честный, и не даст заказчику никакого другого впечатления, кроме своего собственного. Спасибо.
Согласен с lakki2 сортировка по ревалентности не должна стоять по умолчанию, пусть этот параметр выбирают заказчики, которые этот термин понимают. Такое впечатление, что для большинства это воспринимают, как необходимое, не задумываясь о принципе работы системы.
При поиске любой информации в любой коллекции документов основная сортировка - сортировка по соответствию результатов запросу, что и есть сортировка по релевантности. Не понимать это и пытаться опровергнуть глупо. Свое общение с вами закрываю. Повторюсь - за флуд буду банить.
У меня по этому поиску статья "Дары моря" в категории "Дом и быт" внизу каждой страницы. Я считаю, что такая сортировка не должна стоять по умолчанию. Мне лично мешает постоянно переключать. Или сделайте в настройках выбор что стоит по умолчанию. Или возможность запомнить выбор.
Ищу: категория - авто и мото, сортировка - цена по возростанию, длина от 1000, текст - не задано. Результат: цены 1,85; 1,32; 1,17; 0,89; 1,06... Какая ЭТО сортировка?
Публикация комментариев и создание новых тем на форуме Адвего для текущего аккаунта ограничено. Подробная информация и связь с администрацией: https://advego.com/v2/support/ban/forum/1186